.3. 결과 분석 (Results)

.3. 결과 분석 (Results)

학술적 글쓰기, 특히 이공계 논문이나 기술 보고서에서 ‘결과(Results)’ 섹션은 전체 연구의 심장부와 같다. 서론에서 제기된 연구 질문(Research Question)이 실증적 데이터와 만나는 지점이며, 저자가 수행한 지난한 실험과 분석 과정이 객관적 사실(Fact)로서 독자에게 전달되는 공간이기 때문이다.1 이 장은 단순히 실험 데이터를 나열하는 공간이 아니다. 연구자가 설계한 방법론이 산출한 날것의 데이터(Raw Data)를 정보(Information)로 가공하고, 이를 다시 지식(Knowledge)으로 변환하기 위한 첫 번째 단계를 수행하는 논리적 구조물이다. 따라서 결과 섹션의 작성은 철저한 객관성을 유지하면서도, 독자가 데이터의 숲에서 길을 잃지 않도록 안내하는 정교한 전략을 필요로 한다. 본 절에서는 결과 섹션 작성의 철학적 기반부터 구조적 배치, 시각화 전략, 그리고 인공지능 및 공학 분야의 특수성을 반영한 절제 연구(Ablation Study)와 통계적 검증의 세부 기술까지 포괄적으로 다룬다.

1. 결과 섹션의 본질과 작성 원칙

결과 섹션의 가장 본질적인 목적은 연구 수행을 통해 얻어진 발견(Findings)을 독자에게 제시하는 것이다.1 이곳은 저자의 주관적인 해석이나 추측, 혹은 과도한 의미 부여가 배제된 ’증거의 장’이어야 한다. 독자는 이 섹션을 통해 저자의 목소리가 아닌, 실험 그 자체가 말하는 바를 들어야 한다. 이를 위해 저자는 객관성(Objectivity)과 명료성(Clarity), 그리고 논리적 정렬(Alignment)이라는 세 가지 핵심 원칙을 준수해야 한다.

1.1 객관성의 유지와 주관의 배제

결과 섹션 작성 시 저자가 범하기 쉬운 가장 큰 오류는 데이터를 보고하는 과정에 자신의 감정이나 기대감을 투영하는 것이다. 예를 들어, “흥미롭게도(Interestingly)”, “놀랍게도(Surprisingly)”, 혹은 “불행히도(Unfortunately)“와 같은 부사의 사용은 학술적 객관성을 해치는 대표적인 요소다.3 이러한 표현은 독자로 하여금 저자가 특정 결과를 선호하거나 데이터에 대한 편향(Bias)을 가지고 있다는 의심을 품게 만들 수 있다. 결과 섹션의 문장은 건조하고 사실적이어야 한다. “알고리즘 A는 B보다 15% 더 높은 정확도를 기록했다“는 사실이지, “알고리즘 A가 B보다 15%나 더 높은 훌륭한 성능을 보여주어 매우 흥미롭다“는 의견이다. 전자는 결과 섹션에 적합하지만, 후자는 배제되어야 한다.

또한, 결과(Results)와 고찰(Discussion)의 경계를 명확히 하는 것이 중요하다.4 결과 섹션은 ’무엇(What)’을 발견했는지를 기술하는 곳이며, 그것이 ‘왜(Why)’ 발생했는지, 혹은 학문적으로 ’어떤 의미(What it means)’를 갖는지를 심층적으로 논의하는 곳이 아니다.6 물론 데이터의 이해를 돕기 위한 최소한의 ’맥락적 분석(Contextual Analysis)’은 허용되나, 이는 데이터가 보여주는 1차적인 경향성을 문장으로 풀어주는 수준에 그쳐야 한다.1 예를 들어, 그래프의 추세를 설명하면서 “시간이 지남에 따라 오차율이 감소했다“라고 서술하는 것은 결과 섹션의 영역이지만, “오차율 감소는 학습률 스케줄링의 최적화 때문으로 판단된다“라고 서술하는 것은 고찰 섹션의 영역이다.2

1.2 연구 질문과의 정렬 및 선택적 보고

모든 실험 데이터가 결과 섹션에 포함될 자격을 갖는 것은 아니다. 결과 섹션에 수록되는 데이터는 반드시 서론에서 제기된 연구 질문(Research Questions)이나 가설(Hypotheses)과 직접적으로 연결되어야 한다.1 연구 과정에서 수집된 데이터라 할지라도, 연구의 핵심 목표와 무관한 데이터는 과감히 제외하거나 부록(Appendix)으로 이동시켜야 한다. 결과 섹션은 연구자가 가진 모든 데이터를 쏟아붓는 ’데이터 덤프(Data Dump)’가 되어서는 안 된다. 독자의 인지 자원은 한정되어 있으며, 연구의 핵심 메시지를 흐리는 주변적인 데이터는 오히려 논문의 가독성을 떨어뜨린다.7

데이터 선별 과정에서는 긍정적인 결과뿐만 아니라 부정적인 결과(Negative Results)나 예상치 못한 발견도 포함해야 한다는 점을 명심해야 한다.3 연구 가설을 지지하지 않는 데이터라 하여 이를 고의로 누락하는 것은 연구 윤리에 위배되는 행위이며, ’서랍 효과(File-drawer Effect)’를 유발하여 학계 전체의 왜곡을 초래할 수 있다.8 부정적인 결과 또한 해당 방법론의 한계를 보여주는 중요한 과학적 발견이므로, 연구 질문과 관련이 있다면 투명하게 보고해야 한다.

1.3 시제(Tense)의 전략적 사용

결과 섹션의 서술은 기본적으로 과거 시제(Past Tense)를 사용한다.5 연구 결과는 논문을 집필하는 시점에서 이미 완료된 실험이나 관찰을 통해 얻어진 역사적 사실이기 때문이다. “실험군은 대조군보다 높은 반응 속도를 보였다(showed)“와 같이 기술해야 한다. 그러나 표나 그림 자체를 지칭할 때는 현재 시제(Present Tense)를 사용할 수 있다. “표 1은 실험 결과를 보여준다(Table 1 shows…)“와 같은 표현이 가능하다.7 이러한 시제의 구분은 독자가 ’수행된 연구 행위(과거)’와 ’논문이라는 텍스트(현재)’를 명확히 구별하여 인식하도록 돕는다.

2. 결과의 구조화 및 논리적 배치 전략

방대한 실험 데이터를 독자가 이해하기 쉬운 서사(Narrative)로 변환하기 위해서는 정교한 구조화 전략이 필수적이다. 단순히 실험을 수행한 시간 순서대로 결과를 나열하는 것은 독자의 이해를 돕지 못한다. 효과적인 결과 섹션은 가장 중요하고 포괄적인 발견에서 시작하여 세부적이고 미시적인 분석으로 나아가는 계층적 구조를 취하거나, 연구 질문의 논리적 순서에 따라 모듈화된 구성을 따라야 한다.1

2.1 주제별(Thematic) 구성과 모듈화

컴퓨터 과학(Computer Science) 및 공학 논문, 특히 IEEE나 ACM 등 주요 학회(Conference) 논문에서는 전통적인 ’서론-방법-결과-고찰’의 IMRaD 구조를 기계적으로 따르기보다, 연구 내용의 특성에 맞춘 유연한 구조를 취하는 경우가 많다.10 특히 새로운 아키텍처나 알고리즘을 제안하는 경우, 제안된 방법(Method) 자체가 결과의 일부로 간주되기도 하며, 결과 섹션 내부에서도 실험 설정과 결과 해석이 긴밀하게 연결되어야 한다. 따라서 “4.3.1. 성능 비교”, “4.3.2. 파라미터 민감도 분석“과 같이 소제목(Subheadings)을 적극적으로 활용하여 결과 섹션을 주제별로 세분화하는 것이 바람직하다.1

일반적으로 권장되는 결과 섹션의 논리적 배치 순서는 다음과 같다 12:

  1. 주요 성능 평가 (Flagship Results): 연구의 가장 핵심적인 기여를 입증하는 결과다. 제안하는 방법이 기존의 최신 연구(State-of-the-Art, SOTA)와 비교하여 전체적인 성능(예: 정확도, 속도, 효율성) 면에서 얼마나 우수한지를 보여주는 비교 실험 결과가 여기에 해당한다. 이 부분을 섹션의 서두에 배치하여 독자에게 연구의 가치를 즉각적으로 각인시켜야 한다.
  2. 세부 분석 및 절제 연구 (Ablation Studies & Analysis): 전체 시스템의 성능을 확인한 후, 시스템 내부의 각 구성 요소가 성능에 어떻게 기여했는지를 분석한다. 이는 연구의 기술적 깊이를 보여주는 단계다.
  3. 강건성 및 일반화 능력 검증 (Robustness & Generalization): 다양한 조건(예: 노이즈 추가, 데이터셋 변경, 환경 변화)에서도 제안하는 방법이 안정적으로 동작하는지를 보여준다.
  4. 정성적 결과 (Qualitative Results): 수치 데이터만으로는 전달하기 어려운 모델의 동작 특성을 시각적인 예시(예: 생성된 이미지, 로봇의 주행 경로 시각화)를 통해 보여준다.
  5. 실패 사례 분석 (Failure Cases): 제안하는 방법이 작동하지 않는 한계 조건을 솔직하게 기술한다. 이는 연구의 신뢰도를 높이고 후속 연구의 방향을 제시하는 역할을 한다.

2.2 거시적 관점에서 미시적 관점으로 (Macro to Micro)

결과를 기술할 때는 ‘숲을 먼저 보여주고 나무를 설명하는’ 하향식(Top-down) 접근이 효과적이다. 먼저 전체 데이터셋에 대한 종합적인 결과나 가장 중요한 성능 지표를 제시한 후, 하위 그룹(Subgroup)에 대한 분석이나 특정 조건에서의 세부적인 데이터로 논의를 좁혀가야 한다.5 예를 들어, 전체 분류 정확도를 먼저 언급한 뒤, 각 클래스별 정확도나 특정 난이도의 샘플에 대한 성능 차이를 분석하는 식이다. 이러한 구조는 독자가 연구의 전체적인 성공 여부를 먼저 파악하고, 그 세부 요인을 이해하는 인지 과정을 자연스럽게 따라가도록 돕는다.

2.3 문단 구성의 논리: 근거-발견-전환

MIT 커뮤니케이션 랩(MIT Communication Lab)은 실험 결과를 기술하는 각 문단이 ’근거(Rationale) - 발견(Findings) - 전환(Transition)’의 3단계 논리 구조를 갖출 것을 제안한다.7

  • 주제 문장 (Rationale/Topic Sentence): 해당 실험을 왜 수행했는지에 대한 논리적 근거를 제시하며 문단을 시작한다.
  • 예: “제안된 모델이 조명 변화가 심한 환경에서도 강건함을 유지하는지 검증하기 위해, 밝기를 임의로 조정한 데이터셋에서 추가 실험을 수행했다.”
  • 발견의 기술 (Description of Findings): 실제 실험 데이터를 바탕으로 관찰된 결과를 객관적으로 서술한다. 이때 가장 중요한 정량적 수치를 강조하며, 대조군과의 차이를 명확히 한다.
  • 예: “표 3에 나타난 바와 같이, 제안 모델은 저조도 환경에서 베이스라인 모델 대비 12% 향상된 객체 검출률을 기록했다. 반면, 과노출 환경에서는 두 모델 간 성능 차이가 통계적으로 유의미하지 않았다.”
  • 전환 및 요약 (Transition/Summary): 해당 문단의 핵심 발견을 요약하거나, 이 결과가 다음 실험으로 어떻게 이어지는지를 설명하는 연결고리를 제공한다.
  • 예: “이러한 결과는 제안 모델의 특징 추출기가 조명 변화에 대해 일정 수준의 불변성(Invariance)을 확보했음을 시사한다. 다음으로, 우리는 이러한 불변성이 모델의 처리 속도에 미치는 영향을 분석했다.”

이러한 문단 구조는 결과 섹션이 단순한 데이터의 나열이 아니라, 하나의 완결된 논리적 흐름을 가진 서사가 되도록 만든다.

3. 데이터의 시각화: 표와 그림의 전략적 통합

현대 공학 연구, 특히 방대한 데이터를 다루는 AI 및 데이터 과학 분야에서 표(Table)와 그림(Figure)은 텍스트를 보조하는 수단을 넘어, 그 자체로 핵심적인 정보 전달 매체다. 그러나 많은 연구자가 시각 자료를 텍스트로 중복 설명하거나, 불친절한 시각 자료를 제시하여 독자의 이해를 방해하는 실수를 범한다.13 텍스트와 시각 자료는 상호보완적이어야 하며, 효율적인 정보 전달을 위해 역할이 명확히 분담되어야 한다.

3.1 시각 자료의 독립성 (Stand-alone Principle)

모든 표와 그림은 본문을 읽지 않고도 그 내용과 의미를 파악할 수 있어야 한다. 이를 ‘독립성(Stand-alone)’ 원칙이라 한다.7 바쁜 연구자들은 논문을 읽을 때 본문을 정독하기 전에 표와 그림을 먼저 훑어보는 경향이 있다. 따라서 캡션(Caption)과 범례(Legend)는 충분히 상세해야 한다.

  • 캡션 작성: “그림 1. 정확도 그래프“와 같은 모호한 캡션은 지양해야 한다. “그림 1. CIFAR-10 데이터셋에서 에포크(Epoch) 변화에 따른 제안 모델(파란색)과 베이스라인(빨간색)의 검증 정확도 비교. 오차막대(Error bars)는 5회 반복 실험의 표준편차를 나타냄.“과 같이 구체적이어야 한다.9
  • 디자인: 그림 내부의 폰트 크기, 선의 굵기, 색상 대비 등은 인쇄물이나 작은 화면에서도 명확히 구별될 수 있도록 최적화되어야 한다. 복잡한 데이터를 다룰 때는 독자가 주목해야 할 부분(예: 최고 성능 지점)을 시각적으로 강조하는 것이 좋다.

3.2 텍스트와 시각 자료의 상호작용

본문에서 표와 그림을 언급할 때는 시각 자료에 있는 수치를 단순히 텍스트로 다시 읊는 것을 피해야 한다.3 이는 지면의 낭비일 뿐만 아니라 독자의 피로도를 높인다.

  • 나쁜 예: “표 1을 보면, A 모델은 90.1%를 기록했고, B 모델은 88.5%를 기록했으며, C 모델은 85.0%를 기록했다.”
  • 좋은 예: “표 1에 나타난 바와 같이, A 모델은 모든 비교 모델을 큰 폭으로 상회했다(Table 1). 특히 B 모델 대비 1.6% 포인트의 성능 향상을 보였는데, 이는 제안된 모듈의 효율성을 입증한다.”

즉, 텍스트는 시각 자료가 보여주는 데이터의 패턴, 경향성, 이상치(Outlier), 그리고 의미를 해석하고 요약하는 역할을 수행해야 한다.1 표와 그림은 증거(Evidence)를 제시하고, 텍스트는 그 증거가 지지하는 주장(Claim)을 서술하는 구조다.

3.3 표(Table) 활용 가이드라인

표는 정확한 수치 데이터나 복잡한 비교군을 체계적으로 보여주는 데 최적화된 도구다.1 마크다운(Markdown)이나 LaTeX 표를 활용하여 데이터를 정렬할 때는 다음의 원칙을 따른다.

  • 강조: 가장 좋은 성능을 나타내는 수치는 굵은 글씨(Bold)로 표시하여 독자의 시선을 유도한다.
  • 단위 명시: 모든 수치의 단위(%, 초, m/s 등)는 표의 헤더나 캡션에 명확히 기재해야 한다.15
  • 비교 용이성: 비교하고자 하는 수치는 가급적 같은 열(Column)에 배치하여 위아래로 훑으며 비교하기 쉽게 만든다.
모델정확도 (%)파라미터 수 (M)추론 속도 (ms)
Baseline75.4 ± 0.511025
Method A78.2 ± 0.311528
Proposed82.1 ± 0.49522
(표 1. 제안 모델과 기존 모델의 성능 및 효율성 비교. 정확도는 5회 실행 평균 및 표준편차임.)

3.4 고차원 데이터 시각화의 함정 (t-SNE 등)

AI 연구, 특히 딥러닝 분야에서는 고차원 특징(Feature) 공간을 2차원으로 시각화하기 위해 t-SNE(t-Distributed Stochastic Neighbor Embedding)와 같은 차원 축소 기법을 널리 사용한다. 그러나 이러한 시각화 결과를 결과 섹션에 포함할 때는 해석에 각별한 주의가 필요하다.16

t-SNE는 데이터의 지역적(Local) 구조를 보존하는 데 탁월하지만, 클러스터 간의 거리나 밀도와 같은 전역적(Global) 구조는 보존하지 못할 수 있다.17 즉, 시각화된 그림에서 두 클러스터가 멀리 떨어져 있다고 해서 실제 데이터 공간에서도 거리가 멀다는 보장은 없다. 또한, t-SNE의 결과는 ’Perplexity’와 같은 하이퍼파라미터 설정에 따라 크게 달라질 수 있다.16

따라서 결과 섹션에서 t-SNE 플롯을 제시할 때는 다음과 같은 서술 태도를 견지해야 한다.

  1. 과대 해석 금지: “t-SNE 시각화 결과, 클래스 간 완벽한 분리가 확인되었다“와 같은 단정적인 표현보다는, “t-SNE 시각화는 학습된 특징들이 클래스별로 군집화되는 경향을 보여준다(Figure 5)” 정도로 서술한다.
  2. 보완 지표 제시: 시각화 결과의 주관성을 보완하기 위해, Silhouette Score나 Davies-Bouldin Index와 같은 정량적 클러스터링 평가 지표를 함께 제시하는 것이 과학적 엄밀성을 높이는 방법이다.
  3. 파라미터 명시: 시각화를 생성할 때 사용한 Perplexity 값과 초기화 방법 등을 명시하여 재현성을 확보해야 한다.18

4. AI 및 로보틱스 특화: 절제 연구 (Ablation Study)

최근 딥러닝 및 인공지능 관련 논문에서 ’절제 연구(Ablation Study)’는 결과 섹션의 필수불가결한 요소로 자리 잡았다.19 의학 용어인 ’절제(Ablation)’에서 차용된 이 개념은, 인공지능 모델과 같이 복잡한 시스템에서 특정 구성 요소(Component)를 제거하거나 변경했을 때 전체 시스템의 성능이 어떻게 변하는지를 분석하는 실험 방법론이다.20 이는 제안하는 방법의 성능 향상이 우연이 아니라 특정 기술적 기여(Contribution)에 기인함을 인과적으로 입증하는 핵심 수단이다.21

4.1 절제 연구의 설계와 논리

복잡한 신경망 모델은 수많은 모듈(예: 새로운 손실 함수, 데이터 증강 기법, 특수 레이어 등)의 집합체다. 단순히 “제안하는 모델이 기존 모델보다 성능이 좋다“라고만 주장하면, 독자와 리뷰어는 “정확히 무엇 때문에 성능이 좋아졌는가?“라고 반문할 것이다. 절제 연구는 이에 대한 답을 제공한다.

절제 연구의 일반적인 설계 방식은 다음과 같다.22

  1. 베이스라인(Baseline) 설정: 제안하는 기법이 전혀 적용되지 않은 가장 기본적인 모델의 성능을 측정한다.
  2. 구성 요소별 제거(Leave-one-out) 또는 추가(Add-on):
  • Leave-one-out: 완성된 모델에서 핵심 모듈을 하나씩 제거해 가며 성능 하락 폭을 측정한다. 성능 하락 폭이 클수록 해당 모듈의 중요도가 높다는 것을 의미한다.
  • Add-on: 베이스라인 모델에 모듈을 하나씩 누적해 가며 성능 향상 폭을 측정한다. 각 모듈이 기여하는 성능의 증분을 보여준다.
  1. 결과 해석: 단순히 수치를 나열하는 것을 넘어, 왜 특정 모듈을 제거했을 때 성능이 급격히 하락했는지, 혹은 왜 변화가 없었는지(Redundancy)에 대한 기술적 해석을 덧붙여야 한다.24

4.2 절제 연구 결과의 효과적 보고

절제 연구 결과를 보고할 때는 표(Table) 형식을 사용하는 것이 가장 효율적이다. 각 행(Row)에 실험 설정을, 각 열(Column)에 적용된 모듈의 유무(✓/✗)와 결과 지표를 배치한다.

실험 ID모듈 A (Attention)모듈 B (Augmentation)모듈 C (Loss)정확도 (%)
185.0
286.5
387.2
488.4
(표 2. 제안된 프레임워크의 구성 요소별 절제 연구 결과)

국내 연구자들 사이에서는 “Ablation Study“라는 용어를 “절제 연구”, “요소 분석”, “소거 실험” 등으로 번역하여 사용하기도 하나, 최근에는 학술적 정확성을 위해 원어 그대로 “Ablation Study“라고 표기하거나 “Ablation 실험” 등으로 지칭하는 추세가 강하다.22 결과 섹션 내에 4.3.X. Ablation Study라는 별도의 소제목을 할당하여 이 분석을 집중적으로 다루는 것이 논문의 구조적 완성도를 높인다.12

5. 통계적 엄밀성과 수치 보고의 표준

과학적 연구에서 관찰된 차이가 우연에 의한 것이 아님을 입증하기 위해 통계적 유의성(Statistical Significance) 검증은 필수적이다. 특히 자연어 처리(NLP)나 컴퓨터 비전 분야에서 SOTA 모델 간의 성능 차이가 1% 미만으로 좁혀진 상황에서는, 통계적 검증 없는 성능 우위 주장은 설득력을 얻기 어렵다.26

5.1 p-value와 통계적 검정의 보고

통계적 검정 결과를 보고할 때는 단순히 “유의미했다” 혹은 “p < 0.05“라고만 서술하는 것으로는 불충분하다. 정확한 검정 통계량(Test Statistic), 자유도(Degrees of Freedom), 그리고 정확한 P 값을 명시해야 한다.28

  • 표기법: P 값은 이탤릭체 대문자 P를 사용하며, P =.04와 같이 정확한 값을 표기하는 것이 원칙이다. 값이 매우 작은 경우에만 P <.001과 같이 부등호를 사용한다.28
  • 해석의 주의: P < 0.05가 절대적인 진리의 기준이 아님을 인지해야 한다. 미국통계학회(ASA)는 P 값이 효과의 크기(Effect Size)나 가설의 참/거짓을 직접적으로 대변하지 않는다고 경고한다.8 따라서 P 값과 함께 효과 크기(Cohen’s d 등)나 신뢰 구간(Confidence Interval)을 병기하여 독자가 결과의 실질적 의미를 판단할 수 있도록 해야 한다.

5.2 머신러닝 논문에서의 반복 실험 보고

최근 AI 학회(NeurIPS, ICML 등)에서는 단일 실행(Single Run) 결과 보고를 지양하고, 서로 다른 랜덤 시드(Random Seed)를 사용한 다중 실행(Multiple Runs)의 평균(Mean)과 표준편차(Standard Deviation) 보고를 강력히 권장한다.19 딥러닝 모델은 초기화 상태나 데이터 셔플링 순서에 따라 성능 변동이 클 수 있기 때문이다.

결과 테이블에는 “Accuracy: 85.4 ± 0.2%“와 같이 평균과 표준편차를 함께 기재해야 한다. 만약 제안 모델과 비교 모델의 성능 차이가 표준편차 범위 내에 중첩된다면(Overlapping), 이는 성능 차이가 통계적으로 유의미하지 않을 가능성이 높음을 시사한다. 이 경우 t-test나 Wilcoxon signed-rank test 등을 통해 두 분포 간의 차이를 검증하고 그 결과를 텍스트로 서술해야 한다.26

5.3 유효숫자(Significant Digits)와 정직한 서술

수치를 보고할 때 불필요하게 많은 소수점 자릿수를 표기하는 것은 ’가짜 정밀성(False Precision)’을 조장할 수 있다. 측정 데이터의 샘플 크기와 오차 범위를 고려하여 유효숫자를 결정해야 한다.29

  • 예: 테스트 데이터가 100개인 경우, 1개의 오답은 1%의 정확도 차이를 만든다. 이 상황에서 “정확도 85.34%“라고 보고하는 것은 통계적으로 무의미한 소수점 둘째 자리까지 표기한 것이다. “85.3%” 혹은 “85%“로 표기하는 것이 타당하다. 통상적으로 표준편차의 첫 번째 유효숫자 자리까지만 평균값을 표기하는 것이 일반적인 관례다.

6. 부정적 결과(Negative Results)와 예외 사항의 처리

연구 과정에서 가설이 항상 입증되는 것은 아니다. 때로는 실험이 실패하거나, 기대했던 성능 향상이 나타나지 않는 ’부정적 결과(Negative Results)’가 도출되기도 한다. 많은 연구자가 이러한 결과를 논문에서 감추고 싶은 유혹을 느끼지만, 신뢰성 있는 결과 섹션은 이러한 한계점까지도 투명하게 포함해야 한다.3

6.1 부정적 결과의 과학적 가치

부정적 결과는 연구 커뮤니티에 “이 방법은 특정 조건에서 작동하지 않음“이라는 중요한 정보를 제공한다. 이는 타 연구자가 동일한 시행착오를 반복하는 것을 방지하고, 후속 연구가 새로운 방향을 모색하도록 돕는 가치 있는 기여다.31 특히 AI 분야에서는 특정 모델이 특정 데이터셋 분포(Distribution)에서는 잘 작동하지만, 분포가 다른 데이터셋(Out-of-distribution)에서는 실패하는 경우가 빈번하다. 이러한 ’실패 사례(Failure Cases)’를 결과 섹션의 한 부분으로 명시적으로 다루는 것은 논문의 진실성을 높이고, 저자가 자신의 모델을 깊이 있게 이해하고 있음을 보여주는 증거가 된다.12

6.2 정직한 보고와 원인 분석의 분리

부정적 결과를 기술할 때는 변명조로 서술하지 말고, 사실 그대로를 명료하게 기술해야 한다.

  • 예: “예상과는 달리, 레이어 수를 50개 이상으로 증가시켰을 때 오히려 검증 정확도가 2% 감소하는 현상이 관찰되었다(Figure 7).”

이러한 결과가 나타난 원인(예: 과적합, 그라디언트 소실 등)에 대한 심층적인 분석과 추측은 결과 섹션에서 간략히 언급만 하고, 상세한 논의는 고찰(Discussion) 섹션으로 넘기는 것이 구조적으로 적합하다.31 결과 섹션에서는 ’감소했다’는 사실을 확정하는 데 집중해야 한다.

7. 컴퓨터 과학/공학 결과 섹션의 문체와 스타일

결과 섹션의 문체는 문학적 수사보다는 정보 전달의 효율성과 정확성에 최적화되어야 한다. 전문적인 동료 연구자(Professional Peers)를 대상으로 하는 글쓰기이므로, 모호함을 배제하고 직관적인 전달을 목표로 한다.

  • 간결성 (Conciseness): 불필요한 단어를 제거하고 핵심 정보만을 전달한다. “It is shown that…“이나 “The results revealed that…“과 같은 상투적인 도입구를 과도하게 사용하면 문장이 늘어진다. “Table 1 shows…” 혹은 “Figure 3 illustrates…“와 같이 주어를 명확히 하거나, “The proposed method achieved…“와 같이 능동적으로 서술하는 것이 좋다.1
  • 정량적 표현의 사용: “성능이 매우 향상되었다(significantly improved)“와 같은 정성적이고 모호한 표현 대신, “오차율이 15% 감소했다(error rate decreased by 15%)” 혹은 “처리 속도가 2배 빨라졌다(processing speed doubled)“와 같이 구체적인 수치를 제시해야 한다.1 특히 ’Significantly’라는 단어는 통계적 유의성이 검증된 경우에만 사용하는 것이 학계의 약속이다.6
  • 능동태와 수동태의 조화: 전통적인 학술 글쓰기에서는 객관성을 강조하기 위해 수동태(“Measurements were taken…”)가 선호되었으나, 최근에는 가독성과 명료성을 위해 능동태(“We measured…”)의 사용도 널리 허용되는 추세다. 다만, 실험 데이터나 표가 주어인 경우에는 무생물 주어 구문을 활용하여 객관적인 톤을 유지하는 것이 좋다 (“The data suggests…”, “Table 2 lists…”).

8. 요약 및 자체 점검 체크리스트

결과 섹션 작성을 마친 후에는 다음의 체크리스트를 통해 완성도를 점검하고, 부족한 부분을 보완해야 한다.1

점검 항목질문검토 사항
객관성주관적 해석이 배제되었는가?‘흥미롭게도’, ‘아쉽게도’ 등의 감정적 부사 삭제. 데이터가 보여주는 사실 위주 기술.
정렬성연구 질문에 답하고 있는가?서론에서 제기하지 않은 뜬금없는 데이터가 포함되지 않았는지 확인.
시각화표와 그림은 독립적인가?캡션만 읽고도 이해 가능한지 확인. 텍스트에서 단순 중복 서술 배제.
구조논리적 흐름이 있는가?주요 결과(Flagship) → 세부 분석(Ablation) → 정성적 결과 순서 배치.
통계검증이 엄밀한가?P 값, 신뢰구간, 평균/표준편차 표기. 유효숫자 준수 여부.
완전성부정적 결과도 포함했는가?가설과 다른 결과나 실패 사례를 투명하게 보고했는가.
시제과거 시제를 사용했는가?실험 결과 서술 시 과거 시제(was, showed) 사용 확인.

결론적으로, ‘4.3. 결과 분석’ 섹션은 연구자의 학문적 정직성(Integrity)과 분석적 깊이(Depth)가 가장 투명하게 드러나는 공간이다. 화려한 미사여구나 복잡한 문장보다는, 잘 정제된 데이터와 논리적인 구조, 그리고 한계까지도 솔직하게 드러내는 태도가 훌륭한 결과 섹션을 완성하는 열쇠다. 데이터는 스스로 말하지 않는다. 연구자는 결과 섹션을 통해 데이터가 올바른 목소리를 내도록 조율하는 지휘자가 되어야 한다.

9. 참고 자료

  1. How to Write the Results/Findings Section in Research - Wordvice, https://blog.wordvice.com/writing-the-results-section-for-a-research-paper/
  2. Results Section for Research Papers - San Jose State University, https://www.sjsu.edu/writingcenter/docs/handouts/Results%20Section%20for%20Research%20Papers.pdf
  3. How to Write the Results Section: Guide to Structure and Key Points, https://scientific-publishing.webshop.elsevier.com/manuscript-preparation/how-to-write-the-results-section-of-a-research-paper/
  4. How to write results and discussion in a research paper? - PHD Services, https://phdservices.org/how-to-write-results-and-discussion-in-a-research-paper/
  5. How to Write a Results Section | Tips & Examples - Scribbr, https://www.scribbr.com/dissertation/results/
  6. How to write results section in scientific articles? : r/AskAcademia - Reddit, https://www.reddit.com/r/AskAcademia/comments/1nyoqn8/how_to_write_results_section_in_scientific/
  7. Paper: Results : EECS Communication Lab, https://mitcommlab.mit.edu/eecs/commkit/journal-article-results/
  8. American Statistical Association Releases Statement on Statistical Significance and P-Values, https://www.amstat.org/asa/files/pdfs/p-valuestatement.pdf
  9. Common Mistakes in Writing the Results Section - Wordvice, https://blog.wordvice.com/writing-results-section-tips-common-mistakes/
  10. How do I write the methods and results section of a programming-related paper?, https://academia.stackexchange.com/questions/199394/how-do-i-write-the-methods-and-results-section-of-a-programming-related-paper
  11. Guidelines for authors - Frontiers in Robotics and AI | About, https://www.frontiersin.org/journals/robotics-and-ai/for-authors/author-guidelines
  12. Structuring Robotics Conference Papers | MichaelMilford.com, https://michaelmilford.com/structuring-robotics-conference-papers/
  13. 12월 16, 2025에 액세스, [https://blog.wordvice.com/writing-results-section-tips-common-mistakes/#::text=Don’t%20use%20text%20to,shortest%20sections%20of%20your%20paper.](https://blog.wordvice.com/writing-results-section-tips-common-mistakes/#::text=Don’t use text to, https://blog.wordvice.com/writing-results-section-tips-common-mistakes/#:~:text=Don’t%20use%20text%20to,shortest%20sections%20of%20your%20paper.
  14. Common Pitfalls In The Research Process - StatPearls - NCBI Bookshelf - NIH, https://www.ncbi.nlm.nih.gov/books/NBK568780/
  15. How to Write an Impressive Thesis Results Section - Enago, https://www.enago.com/thesis-editing/blog/how-to-write-impressive-thesis-results-section
  16. How to Use t-SNE Effectively - Distill.pub, https://distill.pub/2016/misread-tsne/
  17. Introduction to t-SNE: Nonlinear Dimensionality Reduction and Data Visualization, https://www.datacamp.com/tutorial/introduction-t-sne
  18. The art of using t-SNE for single-cell transcriptomics - PMC - NIH, https://pmc.ncbi.nlm.nih.gov/articles/PMC6882829/
  19. Parallel Ablation Studies for Machine Learning with Maggy on Apache Spark - YouTube, https://www.youtube.com/watch?v=JsJo_2wvQFk
  20. Designing a Performant Ablation Study Framework for PyTorch - DiVA portal, http://www.diva-portal.org/smash/get/diva2:1498976/FULLTEXT01.pdf
  21. [1901.08644] Ablation Studies in Artificial Neural Networks - arXiv, https://arxiv.org/abs/1901.08644
  22. Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning - arXiv, https://arxiv.org/html/2507.04018v1
  23. CHEF in the Language Kitchen: A Generative Data Augmentation Leveraging Korean Morpheme Ingredients - ACL Anthology, https://aclanthology.org/2023.emnlp-main.367.pdf
  24. Ablation Studies to Uncover Structure of Learned Representations in Artificial Neural Networks - ResearchGate, https://www.researchgate.net/publication/339541123_Ablation_Studies_to_Uncover_Structure_of_Learned_Representations_in_Artificial_Neural_Networks
  25. On the effect of pre-training corpora on in-context learning by large-scale language model., https://engineering.clova.ai/en/posts/2022/05/hyperclova-corpus
  26. The Hitchhiker’s Guide to Testing Statistical Significance in Natural Language Processing - ACL Anthology, https://aclanthology.org/P18-1128.pdf
  27. [Discussion] Statistical significance in deep learning papers? : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/iu03rk/discussion_statistical_significance_in_deep/
  28. How should p-values be reported? - JMIR Publications, https://support.jmir.org/hc/en-us/articles/360000002012-How-should-p-values-be-reported
  29. Digit Significance in Machine Learning | by Vincent Vanhoucke | TDS Archive - Medium, https://medium.com/data-science/digit-significance-in-machine-learning-dea05dd6b85b
  30. Illuminating ‘the ugly side of science’: fresh incentives for reporting negative results | Graduate College | University of Illinois Chicago, https://grad.uic.edu/news-stories/illuminating-the-ugly-side-of-science-fresh-incentives-for-reporting-negative-results/
  31. How to Handle Negative Results in your Research Paper? - Ref-n-Write, https://www.ref-n-write.com/blog/how-to-handle-negative-results-in-your-research-paper/